Video Title: Inference, Diffusion, World Models, and More | YC Paper Club
Video ID: wE1ZgJdt4uM
Video URL: https://www.youtube.com/watch?v=wE1ZgJdt4uM
Export Date: 2026-06-16 20:30:34
Channel: Y Combinator
Format: markdown
================================================================================

# Основные выводы и инсайты

## Ключевые выводы и инсайты

• **Инференс становится ключевым фактором возможностей ИИ**: В ближайшие 2-3 года скорость инференса будет определять не только удобство, но и пиковый интеллект системы, особенно для алгоритмов, производительность которых зависит от количества "размышлений"

• **Спекулятивное декодирование можно распараллелить**: Speculative Speculative Decoding (SSD) позволяет одновременно выполнять черновое создание и верификацию токенов, скрывая латентность черчения

• **Мировые модели обеспечивают лучшую интерпретируемость**: В отличие от model-free подходов, мировые модели позволяют количественно оценивать ошибки моделирования и неопределенность

• **Классические теории объясняют современные "загадки" ИИ**: Сверхпараметризация, доброкачественное переобучение и двойной спуск можно объяснить через PAC-Bayes и мягкие индуктивные смещения

• **При ограничениях по данным нужны новые стратегии**: Когда данные ограничены, а вычисления неограничены, ансамблирование и агрессивная регуляризация дают 5-кратный выигрыш в эффективности данных

## Практические стратегии

• **Для ускорения инференса**: Используйте SSD для распараллеливания черчения и верификации, предсказывая наиболее вероятные исходы верификации заранее

• **Для робототехники**: Применяйте диффузионные модели для многошагового прогнозирования действий и динамики, используя MPC для адаптации к новым наградам во время выполнения

• **Для мировых моделей**: Используйте JEPA архитектуру с SIG регуляризатором (Sketched, Isotropic, Gaussian) для предотвращения коллапса представлений

• **При ограничениях данных**: 
  - Применяйте агрессивную регуляризацию (weight decay в 30 раз больше обычного)
  - Используйте ансамблирование множества меньших моделей вместо одной большой
  - Применяйте дистилляцию для уменьшения вычислительных затрат при инференсе

## Конкретные детали и примеры

• **SSD достигает 300 токенов/сек** для Llama 3 70B на 4 H100, правильно предсказывая исходы верификации в 80-90% случаев

• **Мировые модели работают с 15 млн параметров** на одной карте с <24GB VRAM, в 50 раз быстрее конкурентов

• **В эксперименте с 200 млн токенов** ансамблирование показало асимптоту 2.85 против 3.43 для регуляризации

• **Совместное масштабирование** (регуляризация + ансамблирование) дает 5-кратный выигрыш в эффективности данных

• **Дистилляция сохраняет 83%** улучшения потерь при переходе от ансамбля к одной модели

## Предупреждения и частые ошибки

• **Не полагайтесь только на масштабирование модели** при ограниченных данных - это приводит к переобучению после определенной точки

• **Избегайте коллапса представлений** в мировых моделях - используйте соответствующую регуляризацию или трюки

• **Не игнорируйте классические методы ML** - регуляризация, ансамблирование и дистилляция остаются мощными инструментами

• **PAC-Bayes границы становятся неточными** при неправильном вычислении компрессионного члена

• **Мировые модели могут плохо работать** на простых низкоразмерных задачах из-за избыточной сложности

## Ресурсы и следующие шаги

• **Код SSD**: Доступен пример реализации с демонстрацией на VLM

• **Проектная страница LAY World Model**: QR-код предоставлен для подробностей

• **Сотрудничество с Andrew Gordon Wilson** в Q Labs по проблеме обобщения

• **Дополнительная работа по синтетическим данным** и их взаимодействию с эффективностью данных

• **YC Paper Club Slack** для продолжения обсуждений и идей

## Основные темы

• **Эволюция инференса**: От вспомогательного инструмента к ключевому фактору возможностей ИИ

• **Мировые модели против model-free подходов**: Компромиссы между интерпретируемостью и простотой

• **Классические теории ML в современном контексте**: Как PAC-Bayes объясняет современные явления глубокого обучения

• **Стратегии при ограничениях данных**: Новые подходы для эпохи, когда вычисления растут быстрее данных

• **Распараллеливание последовательных алгоритмов**: Преодоление логических зависимостей в спекулятивном декодировании